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Multi-dimensional Statistical Analysis 


W każdym badaniu statystycznym można wyodrębnić trzy wzajem- 
nie ze sobą powiązane etapy, a mianowicie: gromadzenie informacji, ich 
porządkowanie i klasyfikację oraz modelowanie. Ostateczny wynik bada- 
nia statystycznego zależny jest od prawidłowego przeprowadzenia prac 
w poszczególnych etapach, przy czym istotną rolę odgrywa tu ich kolej- 
ność. Oznacza to, że wartość poznawcza otrzymanych modeli kształtowa- 
nia się zjawisk masowych zależy po pierwsze od rzetelności, obfitości 
i trafnego doboru informacji statystycznych, po drugie zaś — od właści- 
wej klasyfikacji zebranych danych. Informacje statystyczne niezbędne 
w badaniu czerpie statystyk z ogólnie dostępnej sprawozdawczości i ewi- 
dencji gospodarczej. Z reguły — poza szczególnego typu badaniami an- 
kietowymi — nie ma on wpływu na ich jakość. Dlatego też tym więk- 
szej wagi nabiera problem właściwego porządkowania i klasyfikacji ma- 
teriału statystycznego. 

Klasyfikacja — w najbardziej ogólnym ujęciu — jest działem meto- 
dologii ogólnej stanowiącej jedno z podstawowych narzędzi badania rze- 
czywistości.! Termin klasyfikacja odnosi się także do samej czynności 
podziału elementów zbioru na podzbiory (człony klasyfikacji) oraz do 
końcowego wyniku tej czynności, tj. do otrzymanych z podziału zbioru 
podzbiorów. W ujęciu teoriomnogościowym klasyfikacja stanowi niepustą 
rodzinę podzbiorów S; (i =1,2,...,k) pewnego zbioru, spełniającą dwa 
warunki: rozłączności (S;ÓOS;=Q, ij, i,j=1,2,..,k) oraz zu- 


1 T. Wójcik: Zarys teorii klasyfikacji. Warszawa 1965. 
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k 
pełności ( U =). Jako synonimów terminu klasyfikacja używa sie 


również takich określeń, jak porządkowanie, dyskryminacja, delimitacja, 
taksonomia.ż W przypadku wykorzystywania w procedurze klasyfikacji 
metod ilościowych używa się często terminów: taksonomia numeryczna, 
taksonometria, taksometria. | 

W pracach cybernetycznych zamiast powyższych terminów zwykle 
używa się określeń: teoria rozpoznawania obrazów bądź też teoria ukła- 
dów rozpoznających, uczących się. Teoria rozpoznawania obrazów wy- 
korzystywana jest przy porządkowaniu dużych zbiorów informacji sta- 
tystycznych bądź też przy wyodrębnianiu pewnych podzbiorów. 

Obrazem nazywamy zbiór realnie lub potencjalnie istniejących obiek- 
tów należących do tej samej klasy podobjeństwa, charakteryzujących się 
pewnymi wspólnymi własnościami (cechami). Obrazem jest np. zbiór 
cech charakteryzujących równowagę rynkową, czy też zbiór osób, które 
nabyły samochód w pewnym okresie, czy też zbiór przedsiębiorstw wy- 
konujących plany. 

Elementy składowe obrazu są obiektami. Proces przyporządkowania 
nowych, dotychczas nie rozpatrywanych obiektów do danej klasy podo- 
bieństwa (obrazu) nazywamy rozpoznawaniem obrazów. Przyporządkowa- 
nie obiektów do poszczególnych obrazów odbywa się w drodze porówny- 
wania właściwości klasyfikowanego obiektu z właściwościami obiektów 
należących do pewnej, ustalonej już klasy (obrazu). Zbiór wszystkich 
obiektów będących przedmiotem klasyfikacji nazywamy przestrzenią 
prób. Natomiast zbiór wszystkich obrazów (klas podobieństwa) opisa- 
nych na danej przestrzeni prób określamy mianem alfabetu klas (obra- 
zów). 

Wyjściowym punktem klasyfikacji jest określenie jej przedmiotu 
i przestrzeni. Przedmiotem klasyfikacji jest zbiór obiektów, którymi 
mogą być jednostki przestrzenne (np. województwa, gminy), przedsię- 
biorstwa przemysłowe, handlowe itp. Ogólnie można stwierdzić, że przed- 
miotem klasyfikacji jest zbiór indywiduów (obiektów) dowolnego rodza- 
ju. Zbiór ten oznaczamy, symbolem 2, a elementy tego zbioru — sym- 
bolem «;. Tak więc œ; € Q, i = 1, 2, ..., k, gdzie k oznacza liczbę obiektów 
podlegających badaniu. W zależności od przedmiotu klasyfikacji można 
wyróżnić klasyfikację przeprowadzoną drogą podziału logicznego oraz 
przez grupowanie. 3 

2 Por. m.in. W. Bukietyński, Z. Hellwig, K. Królik, A. Smo- 
luk: Uwagi o dyskryminacji zbiorów skończonych. Prace Naukowe WSE Wrocław, 
1969 nr 21: B Kopociński: Dyskryminacja za pomocą dendrytów. „Zastosowa- 
nia Matematyki” 1960, nr 3. 

372. Chojnicki, T. Czyż: Metody taksonomii numerycznej w regiona- 
lizacji geograficznej. Warszawa 1973, s. 8. 
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Klasyfikacja przez podział logiczny (zwana też klasyfikacją deduk- 
cyjną lub „od góry”) dokonywana jest w oparciu o pewne kryterium za- 
pewniające poprawny podział logiczny, tj. realizujące warunki rozłączno- 
ści i zupełności. Kryterium to jest definiowane z góry. Najprostszym 
przykładem takiej klasyfikacji jest podział dychotomiczny (dwudzielny). 
Wyjściowy zbiór obiektów © dzielony jest tu na dwa podzbiory (człony 
klasyfikacji): jeden z nich obejmuje obiekty posiadające pewną cechę, 
drugi natomiast — obiekty nie posiadające jej. 

Klasyfikacja przez grupowanie (zwana klasyfikacją indukcyjną lub 
„od dołu”) odbywa się w drodze grupowania obiektów tworzących 
zbiór Q na podstawie ich podobieństwa. Procedura grupowania wymaga 
tu ustalenia kryteriów dodawania elementów zbioru 2. W ten sposób np. 
{xi} Y {xe} =S, a {xg} U {xa} Y {x5} =S Wynika stąd wnio- 
sek, że w klasyfikacji przez grupowanie zachodzi konieczność enumeracji 
zbioru Q, podczas gdy w podziale logicznym jest on definiowany. Fakt 
ten w przypadku podziału logicznego może prowadzić do otrzymywania 
klas (podzbiorów) pustych, co nie jest możliwe w procedurze grupowa- 
nia. Dodać przy tym należy, że w ramach podzbiorów (członów klasy- 
fikacji) uzyskanych w pierwszym etapie, można dokonywać dalszej kla- 
syfikacji, co prowadzi do klasyfikacji wielostopniowej. Wynik klasyfi- 
kacji wielostopniowej otrzymany w drodze podziału logicznego zależy 
nie tylko od wybranych cech stanowiących kryterium klasyfikacji, ale 
również od kolejności, w jakiej cechy te stanowią podstawę podziału. 
Stąd też istotna jest tu znajomość struktury zbioru będącego przedmio- 
tem klasyfikacji. W klasyfikacji przez grupowanie nie ma potrzeby usta- 
lania hierarchicznego porządku cech. 

Przestrzeń klasyfikacji wyznaczona jest przez zbiór własności (cech) 
opisujących elementy zbioru © podlegające klasyfikacji. Elementy prze- 
strzeni klasyfikacji (cechy) powinny być tak dobrane, by spełniały okre- 
ślone wymogi natury zarówno formalnej, jak i merytorycznej. Nie jest 
przy tym możliwe wskazanie jednej generalnej recepty na właściwy do- 
bór cech, gdyż zależy to od charakteru, przedmiotu i celu konkretnego 
badania. Niemniej jednak przyjmuje się, że zbiór cech jest wysoce dia- 
gnostyczny, jeżeli jego poszczególne elementy spełniają następujące wa- 
runki: * 

1) ujmują najbardziej istotne właściwości analizowanych zjawisk, 

2) są proste, jasno sprecyzowane i logicznie ze sobą powiązane, 

3) są bezpośrednio lub pośrednio mierzalne oraz dadzą się wyrazić za 
pomocą wielkości stosunkowych lub absolutnych, 


4J. Fierich: Próba zastosowania metod taksonomicznych do rejonizacji sy- 
siemów rolniczych w woj. krakowskim. „Myśl Gospodarcza” 1957, nr 1. 
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4) charakteryzują się wysoką zmiennością w przekroju klasyfiko- 
wanych obiektów, 

5) są nieskorelowane, ale jednocześnie wykazują dużą zależność z ce- 
chami nie uwzględnionymi bezpośrednio w procedurze klasyfikacji. 

Obiekty, będące elementami składowymi zbioru 2, charakteryzowane 
są zwykle przez większą liczbę cech. Stąd też każdy obiekt w; € Q może 
być rozumiany jako wektor: 


w= (Xi, Xi2, e; Xin) (1) 


gdzie x,; oznacza j-tą składową tego wektora, czyli wartość j-tej cechy 
posiadaną przez obiekt w;. W interpretacji geometrycznej poszczególne 
obiekty są punktami w przestrzeni n-wymiarowej (stąd nazwa wielowy- 
miarowa analiza statystyczna). Punkty te należy rozdzielić na pewną 
(ustaloną z góry lub też nie) ilość rozłącznych i wyczerpujących skupisk 
homogenicznych w sobie i heterogenicznych pomiędzy sobą. Oznacza to, 
że poszczególne skupiska (klasy, człony klasyfikacji) powinny zawierać 
punkty położone blisko siebie w sensie ustalonej a priori metryki odle- 
głości, a równocześnie znacznie oddalone od punktów należących do po- 
zostałych skupisk. 

Zbiór danych wyjściowych stanowiących podstawę klasyfikacji two- 
rzy macierz obserwacji o postaci: 


X = X21 X22 ... Xan (2) 


gdzie: k — liczba obiektów, 
n — liczba cech, 
Xij — wartość j-tej cechy w i-tym obiekcie. 


W macierzy (2) dla każdego obiektu przeznaczony jest jeden wiersz 
a dla każdej cechy — jedna kolumna. 
Cechy opisują różne właściwości badanych obiektów i wyrażane są 
w różnych miarach. Stąd też nie należy w dalszych obliczeniach posłu- 
giwać się bezwzględnymi wartościami cech, lecz ich miarami relatywny- 
mi. Przekształcenia rzeczywistych wartości cech w wielkości relatywne 
dokonuje się w drodze ich standaryzacji (normalizacji). Normalizacji cech 
najczęściej dokonuje się następująco: 
2 Xig—Xy 
Xj = 5, (3) 


Do Xij— Xi 


Wielowymiarowa analiza statystyczna 163 


0 Xij 5 
X; = —— 
== () 


gdzie: i — obiekt badania; i = 1, 2, ..., k, 
j — cecha; j=1,2,..,n, 


Xi — rzeczywista wartość j-tej cechy dla i-tego obiektu, 
x — standaryzowana wartość j-tej cechy dla i-tego obiektu, 
x; — średnia wartość j-tej cechy, 


S; — odchylenia standardowe j-tej cechy. 


Kazda standaryzacja zmniejsza wariancję cech, a tym samym znie- 
kształca wyniki badań. Jednakże w wielowymiarowej analizie statystycz- 
nej standaryzacja jest zabiegiem koniecznym. 

W problemie klasyfikacji, oprócz określenia przedmiotu i przestrzeni, 
niezbędny jest wybór odpowiedniego kryterium klasyfikacji. Kryteria 
klasyfikacji są funkcjami podobieństwa przyporządkowującymi każdej 
parze elernentow w; o; E © miarę ich wzajemnego podobieństwa (niepo- 
dobieństwa). Miarami tymi są najczęściej odległości lub współczynniki 
podobieństwa. Wybór funkcji podobieństwa uzależniony jest przede 
wszystkim od charakteru cech uwzględnionych w badaniu. I tak w od- 
niesieniu do zmiennych (cech) ciągłych z reguły stosuje się odpowiednio 
określone odległości. Natomiast w przypadku zmiennych binarnych sto- 
suje się głównie współczynniki podobieństwa. 

W badaniach empirycznych najczęściej wykorzystywane są odległo- 
ści Euklidesa. Zbiór obiektów Q traktowany jest jako przestrzeń me- 
tryczna, co umożliwia każdej parze jego elementów uw; œj przyporządko- 
wać dokładnie jedną nieujemną liczbę rzeczywistą d(w;, wj) spełniającą 
następujące aksjomaty: 

1) aksjomat tożsamości (dj = (0 wtedy i tylko wtedy gdy i= j), 

2) aksjomat symetrii (dij = dji), 

3) aksjomat trójkąta (d;s+ ds; > die) 

Odwzorowanie d określone na zbiorze wszystkich par elementów 
przestrzeni 2 nazywamy metrykę przestrzeni metrycznej ©. Elementy 
tej przestrzeni nazywamy punktami, a wartość odwzorowania d(o;, wj), 
czyli wartość metryki, nazywamy odległością punktu w; od punktu wj. 

Odległości euklidesowe najczęściej obliczane są jako: 

1) przeciętne bezwzględnych różnie wartości cech: 


n 
1X 
da = — > 
n 
j=l 


Xj Xj 


(7) 
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gdzie: drs — odległość między obiektem r-tym oraz s-tym dla r~s = 


= 1,2,..,k 
x’, — standaryzowana wartość j-tej cechy w r-tym obiekcie 
(j=lL,2,..,n) 
x'sj — standaryzowana wartość j-tej cechy w s-tym obiekcie, 
n — liczba uwzględnionych cech, 


2) jako pierwiastek z przeciętnej kwadratów różnic wartości zmien- 


nych (cech): 
ryr, [2 
dż — Siem" (8) 
n 
j=l 


3) jako sumę bezwzględnych różnie wartości zmiennych: 
A RÓJ © 
=I 
4) jako pierwiastek z sumy kwadratów różnic wartości zmiennych: 


di, = p xi | (10) 
i=l 


Po obliczeniu odległości każdego obiektu od wszystkich pozostałych 
w danym zbiorze 2 otrzymujemy macierz odległości o postaci: 


Ry 


du dig ... dik 
p ia Men ii ai) 
dir dna - Ant 


Odległości zawarte w macierzy D zostały określone w przestrzeni, 
której wymiary wyznacza liczba uwzględnionych zmiennych (cech). Ma- 
cierz D stanowi podstawę dalszych operacji statystycznych zmierzających 
do uzyskania jednorodnych podzbiorów (wynik klasyfikacji). 

Zwrócić należy uwagę na fakt, że przedmiotem procedury klasyfika- 
cyjnej mogą być zarówno obiekty, jak i cechy. W pierwszym przypad- 
ku odległości obliczane są między punktami identyfikowanymi przez 
wiersze wyjściowej macierzy obserwacji (zwykle zestandaryzowanej), 
w drugim zaś — pomiędzy punktami, którym odpowiadają kolejne ko- 
lumny tej macierzy Jeśli odległości obliczane są pomiędzy obiektami, to 
macierz D ma wymiary kXk, gdy zaś między cechami — nXn. Przy 
obliczaniu odległości między cechami (kolumny) stosuje się te same ope- 
racje, co przy odległościach między obiektami (wiersze macierzy), z tym, 
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że zmieniają się granice sumowania. W takim przypadku np. wzór (8) 
przyjmuje postać: 


[2 


k 1 
1 ; | M. tS 
drs = k (jr — Xj)? (r,s=1,2,..., n) (12) 
i=1 


Obliczanie odległości. pomiędzy parami zbioru 2 za pomocą wzorów 
(7)—(10) opierało się na założeniu, że każda ze zmiennych (cech) okre- 
ślająca jeden z wymiarów przestrzeni klasyfikacji posiada identyczną 
wagę. Wydaje się, że należałoby uwzględnić w obliczaniu odległości moż- 
liwość ważenia obserwacji. Problem ustalenia właściwej funkcji wagowej 
jest dość skomplikowany i w znacznej mierze powinien opierać się na 
przesłankach heurystycznych.> 

Przy konstrukcji funkcji podobieństwa w oparciu o współczynniki 
podobieństwa wykorzystuje się rachunek korelacyjny. Zależności istnie- 
jące między zmiennymi charakteryzują współczynniki korelacji, tworzą 
macierz R o postaci: 


1m 

|= LEWE 
R = — (ZZ) = (13) 

K D euE ay FE 

Tmt 1 
gdzie: Z — macierz znormalizowanych wartości cech o wymiarze 
nxm, 

ZT — macierz transponowana w stosunku do macierzy Z o wy- 


miarach m Xn; 
_. n — liczba obserwacji. 
Macierz korelacji R spełnia taką samą rolę, jak macierz odległości D. 


Jako miarę podobieństwa wykorzystuje się również współczynnik ko- 
relacji w ujęciu wektorowym. W takim przypadku miarę podobieństwa 
dwóch obiektów jest stopień zbieżności przebiegu wektorów (współczyn- 


5 Pewne uwagi dotyczące tego zagadnienia znaleźć można w pracach: J. Licz- 
kowski: Badanie intensywności rolnictwa w ujęciu przestrzennym, „Postępy 
Nauk Rolniczych” 1961, nr 6; J. Mikiewicz: Zagadnienie wyboru cech przy 
użyciu metod taksonomii wrocławskiej. Referat na konferencję naukową Polskiego 
Towarzystwa Biometrycznego, Wrocław 1967. ‘ 
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nik korelacji), czyli cosinus kąta pomiędzy wektorami. Współczynnik ten 
jest określony następująco: § 


cos W,W, = ARIA. (14) 
[ws] [wi] 
przy czym: 
n 
WW, = DET Xij 
j=1 (15) 


gdzie: W; W, — iloczyn i-tego i l-tego wektora, 
[W;l[W;l — iloczyn skalarny i-tego i l-tego wektora, 
X; — wartość j-tej zmiennej dla i-tego obiektu, 
Xy — wartość j-tej zmiennej dla l-tego obiektu. 


Dla danych binarnych współczynniki podobicństwa oblicza się z tzw. 
dwójkowej tablicy podobieństwa badanych obiektów, która ma postać: 


Obiekt i-ty 
a | b a+b 
Obiekt I-ty c | d c4d 
a+c | b+-d | pierce | 
gdzie: a — liczba cech występujących równocześnie w i-tym i l-tym 
obiekcie, 


b — liczba cech występujących w obiekcie i-tym a nie wystę- 
pujących w obiekcie l-tym, 

c — liczba cech występujących w obiekcie j-tym a nie wy- 
stępujących w obiekcie l-tym, 

d — liczba cech nie występujących w obiekcie i-tym i l-tym. 


Współczynniki podobieństwa z dwójkowej tablicy podobieństwa obli- 
czane są jako kombinacje elementów tej tablicy. Przykładowo można je 
obliczyć następująco: 

a+d 


WS 
> ad+bc (16) 


J. J. Parysek, L. Wojtasiewicz: Metody analizy regionalnej i me~ 
tody planowania regionalnego. PAN, KPZK, Studia tom LXIX, Warszawa 1979, s. 69. 
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Na | ad 
V(ate) (a+b) (b+d)  (e|-d) 


(17) 


Należy zwrócić uwagę na fakt, że interpretacja odległości i współ- 
czynników podobieństwa jest odmienna. Rosnąca wartość odległości 
wskazuje na brak podobieństwa obiektów, których ta odległość dotyczy. 
Natomiast wzrost współczynnika podobieństwa świadczy o podobieństwie 
badanych obiektów. 

W każdym zadaniu klasyfikacji można wyróżnić następujące elemen- 
ty składowe: 

1) ustalenie zbioru klas (alfabetu klas, obrazów) S. Jeśli zbiór ten 
jest skończony, to jego elementami są S; (i = 1, 2,..., M); 

2) dokonanie wyboru własności obiektów, czyli cech charakteryzują- 
cych pojedynczą realizację obrazu (realizacja obrazu — to każdy obiekt 
zbioru reprezentujący dany obraz). Oznaczmy zbiór tych cech przez X, 
a jego elementy przez X; (j=1,2,...,n); 

3) przyjęcie określonego kryterium klasyfikacyjnego, czyli zasady, 
według której należy podejmować decyzje, do jakiego obrazu zaliczyć 
rozpoznawany obiekt. Oznaczmy tę zasadę decyzyjną przez D, a zbiór 
wartości funkcji decyzyjnej, przy których dany obiekt należy zaliczyć 
do i-tego obrazu przez D,; | 

4) ustalenie wielkości strat spowodowanych błędami klasyfikacji, 
czyli ustalenie efektywności klasyfikacji (Ściślej: ustalenie sposobu po- 
miaru strat oraz określenie ich poziomu). Oznaczmy wielkość tych strat 
symbolem E. 

W zależności od wstępnych informacji o S,X,DiE (lub przyjętych 
założeń o tych zbiorach i wielkościach) można wyróżnić cztery elemen- 
tarne zadania klasyfikacji. 

Pierwszym zadaniem jest wybór kryterium klasyfikacji pozwalające- 
go podzielić elementy zbioru © scharakteryzowane przy pomocy zbioru 
cech X pomiędzy klasy S; (zadane z góry), ponosząc przy tym straty nie 
większe od E. Zadanie to można w skrócie zapisać następująco: 


[D/S, X, E] 


gdzie symbol występujący przed kreską oznacza nieokreślony człon za- 
dania, podczas gdy pozostałe elementy składowe (po kresce) są znane 
ex ante. Zadanie tego typu może również polegać na porządkowaniu 
nowo pojawiającego się obiektu (nie będącego elementem wyjściowego 
zbioru 9) do odpowiedniej klasy S,. W takim przypadku mówimy o za- 
daniu klasyfikacji z nauczycielem (lub uczeniem z nagradzaniem). Nazwa 
„klasyfikacja z nauczycielem wywodzi się stąd, że teoria rozpoznawania 
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obrazów zajmuje się działaniem dwóch układów: człowieka (nauczyciela) 
i maszyny (ucznia) 7. Uczenie z nauczycielem polega na takim współdzia- 
łaniu tych układów, że nauczyciel demonstruje uczniowi obiekty, a ten 
przydziela je do odpowiednich klas. Do rozwiązywania zadań typu 
pierwszego wykorzystuje się metody klasycznej analizy dyskryminacyj- 
nej, gdyż zagadnienie to można sformułować następująco: dane są wielo- 
wymiarowa zmienna losowa X, zmienna losowa Y realizująca wartości 
równe numerom poszczególnych klas, znane są rozkłady warunkowe typu 
F(x/y;) i=1,2,.., M, rozkład zmiennej Y oraz macierz stopnia strat 
stopnia M. W tych warunkach należy podać regułę decyzyjną minimali- 
zującą np. przeciętne straty błędnej klasyfikacji (straty przy bezbłędnej 
klasyfikacji wynoszą zero). 

Drugi typ zadania można określić mianem redukcji wymiarów prze- 
strzeni lub minimalizacji opisu. Rozwiązaniem zadania jest wskazanie ta- 
kiego podzbioru X (zbiór cech), który pozwoli przyporządkować elementy 
składowe zbioru © (obiekty) do klas (obrazów) S; przy pomocy kryte- 
rium D z minimalnymi stratami E, czyli: 


[X/S, D, E] 


Zadanie tego typu należy rozwiązać w ten sposób, by straty spowo- 
dowane zmianą ilości informacji (redukcją liczby cech) były jak najmniej- 
sze w sensie funkcji E. Jak łatwo zauważyć tego typu zagadnienie jest 
identyczne z problemem doboru zmiennych objaśniających do modeli 
ekonometrycznych.$ 

Trzeci typ zadania klasyfikacji można zapisać następująco: 


[S/X, D, E] 


W zadaniu tym chodzi więc o podział elementów zbioru © opisanych 
przy pomocy zbioru własności (cech) X na klasy S; posługując się przy 
tym kryterium decyzyjnym D przy zachowaniu efektywności klasyfi- 
kacji na poziomie E. Zadania tego typu określane są mianem taksonomii, 
automatycznej klasyfikacji, grupowania (cluster analysis), samouczeniem 
(uczeniem bez nauczyciela). 

Należy zwrócić uwagę na formalne podobieństwo zadań typu drugie- 
go i trzeciego. W obu typach zadań należy bowiem dokonać określonego 


TB. B. Rozin: Teoria rozpoznawania obrazów w badaniach ekonomicznych. 
Warszawa 1979, s. 11. 

8 Dla modeli ekonometrycznych z dyskretną zmienną objaśniającą analogia jest 
zupełna, natomiast w przypadku modeli ze zmiennymi ciągłymi należy założyć, żę 
zpiór alfabetu klas jest mocy continuum, 


Wielowymiarowa analiza statystyczna 169 


grupowania (redukcji przestrzeni). Jednakże w zadaniu typu drugiego re- 
dukcja odbywa się w przestrzeni cech, natomiast w zadaniu typu trze- 
ciego — w przestrzeni obiektów. 

Czwarty typ zadania można określić mianem optymalizacji. W zada- 
niu tym należy określić poziom strat E ponoszonych w trakcie procesu 
klasyfikacji elementów zbioru Q o własnościach X pomiędzy klasy S; 
w oparciu o kryterium D, czyli: 


[E/S, X, D] 


Dodać należy, że zadania tego typu stanowią zazwyczaj uzupełnienie 
poprzednich typów, a nie stanowią odrębnego zadania. I tak jeśli np. 
w problemie klasyfikacji poziom strat dotyczy błędnego zaklasyfikowa- 
nia pojedynczej realizacji (straty jednostkowe), to rozwiązując zadanie 
typu czwartego (już po zakończeniu klasyfikacji) jesteśmy w stanie po- 
dać poziom strat przeciętnych. 

Powyższe cztery zadania klasyfikacyjne zostały określone mianem 
zadań elementarnych (prostych). W praktyce badań statystycznych nie 
zawsze dysponujemy, tak dużą ilością informacji wyjściowych (trzy spo- 
śród czterech członów muszą być znane a priori). Dlatego też zachodzi 
konieczność rozwiązywania tzw. zadań kombinowanych. W tego typu 
zadaniach mogą być znane dwie (lub nawet jedna) składowe procedur 
klasyfikacyjnych. Przykładowo można wymienić takie zadania, jak: 
[X, D/S, E], [S, X/D, E], [E/S, X, D] itp. Mogą również wystąpić sytuacje, 
w których żaden element procedury klasyfikacyjnej nie jest znany ex 
ante. Mówimy wówczas o zadaniach złożonych. Zasadnicze znaczenie po- 
siadają jednak zadania elementarne, gdyż zarówno kombinowane, jak 
i złożone można sprowadzić do zadań prostych. Przykładowo zadanie 
kombinowane w postaci [S, D/X, E] można rozwiązać rozpatrując szereg 
zadań elementarnych [S/X,D,E] zakładając różne możliwe kryteria 
klasyfikacyjne. Należy się jednak wtedy liczyć ze znacznym wzrostem 
pracochłonności, nawet przy zastosowaniu maszyn cyfrowych. 


PE3SIOME 


B cTaTbe NpKBOĄUTCA o6jan xapakTepucTnka MCCJHEĄOBATEJIbLCKKX mpobmem 
OXBATbIBAEMbIX TepMMHOM ,,MHOFOM3MEPMTEJIbHbIM CTATMCTMYeCKMM AHAJIM3". B uacT- 
IIOCTM, gano OnpełeleHMe TepMMHa ,,KJlacchcpuKalMa”, BMĄbI KAaccudbuKaunn M 
CHOCOÓBI NOCTPOEHKA dyHKUMA CXOĄCTBA, TIOJ3BOJAKPIIMNX JAUMCJIATŁ OTĄEJHBHBIE 
OÓbEKTBI K OJNDEĄEJEHHBIM TOMOTEHHBIM KJlaccaM. B KOHeYHOM acth CTATLM onpege- 
JCHbI YETbIPe OCHOBHble (3J1IEMeHTapHbie) 3aHa4M KIIĄCCHCDAKANNK. 
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SUMMARY 


In the article an analysis was carried out as to the characterization of research 
problems included in so-called multi-dimensional statistical analysis (WAS). In par- 
ticular, a definition of the term classification" was provided, there were also gi- 
ven the types of classifications and the methods of constructing the functions of 
similarity which make it possible to group definite objects under homogeneous 
classes. The last part of the article specified the four fundamental (elementary) 


tasks of classifications. 


